查看原文
人工智能

LLM vs. ChatGPT:开源模型面临的真相与错觉!

lencx 浮之静 2023-06-15

最近几个月,开源了很多类 ChatGPT 的大语言模型,每一个都号称参数更少,价格更低,性能直逼 GPT-3.5。但事实真的如此吗?如果这些大模型你都体验过,相信你心中早已有了答案。正巧今天我刷到了一篇推文,说出了我想说的话,这里分享给大家。

LLM 开源模型简史

内容整理自 @cwolferesearch,并补充了部分细节

在 LLaMA 的引领下,深度学习研究社区迅速采取了观点,即开源的大型语言模型(LLM)将决定未来——复制专有模型的开源变体似乎既简单又廉价。但这是真的吗?下面是一段关于模型提案的简要时间线,以及我们了解的情况…

  1. 开源大型语言模型(LLM)的繁荣始于 LLaMA 的提案,它们使用公开数据进行预训练,使得可以复制这些模型。

  2. LLaMA 权重的泄漏导致许多研究者开始使用该模型进行研究,并开发了许多基于 LLaMA 的微调模型,如 Alpaca、Vicuna 和 Koala。

  3. 这些微调的模型在一定程度上模仿了如 ChatGPT 这样的模型的风格和结构,但在更广泛的自然语言基准测试中,它们的表现并不理想,证明了只通过微调无法达到原始模型的性能。

  4. 尽管如此,由于这些模型能够模仿聊天机器人的风格,它们在某种程度上"欺骗"了人类评估者,这导致了开源 LLM 将超越专有模型的误解。

LLaMA

开源 LLM 项目的激增始于 LLaMA[1] 的提出,LLaMA 是一系列 LLM 的组合,大小范围从 70 亿到 650 亿参数。这些 LLM 的灵感来自Chinchilla[2],它们比同类模型小一些,但进行了广泛的预训练,使它们的性能出人意料地好(例如,130 亿参数的模型与 GPT-3 相当)。与在公共和专有数据上进行训练的封闭源模型不同,LLaMA 只使用公开可用的数据进行预训练,使其完全开源并可以复制(万字长文:LLM - 大语言模型发展简史)。

LLaMA 泄漏

在提出并发布供研究目的后,LLaMA 的权重在 4Chan 上泄露给公众。这次泄漏导致研究社区的许多人开始使用该模型进行研究,导致大量不同的出版物和提案,我们在下面简要概述。这些技术的大多数都在 ChatGPT 的对话(即模仿模型)上微调 LLaMA,并声称实现了相当的性能,从而形成了创建像 ChatGPT 这样的模型的开源副本实际上很容易的观点。

  • Meta’s powerful AI language model has leaked online — what happens now?[3]

  • Meta's LLaMA LLM has leaked - Run Uncensored AI on your home PC![4]

Alpaca

Alpaca[5] 是 LLaMA-7B LLM 的微调版本。微调过程基于自我指导,其中从更高性能的 LLM(即 text-davinci-003)收集跟随指令的数据,并用于监督微调。Alpaca 的整个微调过程只花费 600 美元(包括数据收集和微调)。

Vicuna

Vicuna[6] 是通过微调 LLaMA-13B 创建的开源聊天机器人(即:与 GPT-3 性能相当)。Vicuna 是在用户与 ChatGPT 的对话示例中进行微调的,整个微调过程可以复制,花费小于 300 美元,使聊天机器人更易于研究。与 Alpaca 相比,Vicuna 与 ChatGPT 更可比,并生成更详细和结构化的答案。

Koala

Koala[7] 是 LLaMA-13B 的版本,已经在来自各种来源的对话数据上进行了微调,范围从公共数据集到其他高质量 LLM 的对话。与 Alpaca 相比,Koala 在对话数据上进行了微调,并进行了更广泛的评估(使用了更多的人工评估员)。

GPT4ALL

GPT4ALL[8] 是经过训练的 LLaMA-7B 模型,在 GPT-3.5-turbo 的超过 800K 聊天完成中进行了训练。与发布代码和模型一起,GPT4ALL 的作者发布了模型的 4 位量化权重,可以用于在 CPU 上运行推理。结果是,我们实际上可以在普通笔记本电脑上本地托管此模型(GPT 本地化:在没有网络状况下与本地文档进行对话!)。

巨大的潜力

上述模型都是在相当接近的时间内发布的,并且(在大多数情况下)声称达到了与 ChatGPT 或 GPT-4 等顶级模型相当的结果。因此,LLM 社区迅速采取了观点,即开源 LLM 将很快匹配最强大的专有模型的质量。

真相

当对这些模型进行更有针对性的评估时,我们看到它们的性能并不像看起来那么令人印象深刻。实际上,这些模型擅长在少量模仿数据上微调时匹配像 ChatGPT 这样的模型的风格和结构,但它们缺乏相同的知识库。模仿模型更容易出现幻觉,并在受到更多自然语言基准的影响时表现不佳。尽管存在这些限制,这些模型能够通过他们的风格“欺骗”人类评估者,尽管它们的事实性显著降低。

相关论文

LLaMA:开放高效的基础语言模型

论文地址:LLaMA: Open and Efficient Foundation Language Models[9]

我们介绍 LLaMA,这是一套从 70 亿到 650 亿参数的基础语言模型集合。我们在万亿数量级的 tokens 上训练我们的模型,并展示了仅使用公开可用的数据集就可以训练出最先进的模型,而无需依赖专有且难以获取的数据集。具体来说,LLaMA-13B 在大多数基准测试上胜过 GPT-3(1750 亿参数),而 LLaMA-65B 可以与最优秀的模型,Chinchilla-70B 和 PaLM-540B 竞争。我们将所有模型发布给研究社区。

模仿专有 LLM 的虚假承诺

论文地址:The False Promise of Imitating Proprietary LLMs[10]

一种新兴的方法是通过在更强大的模型(例如 ChatGPT 等专有系统)的输出上微调较弱的语言模型,从而以低成本提高其性能(例如 Alpaca,Self-Instruct 等)。这种方法试图使用较弱的开源模型便宜地模仿专有模型的能力。在这项工作中,我们对此方法进行了批判性分析。我们首先微调了一系列模仿 ChatGPT 的语言模型,这些模型使用不同的基础模型大小(从 15 亿到 130 亿参数)、数据源和模仿数据量(从 30 万到 1.5 亿 tokens)。然后,我们使用人群评估者和经典的 NLP 基准测试来评估这些模型。起初,我们对模仿模型的输出质量感到惊讶——它们在遵循指令方面表现得更好,人群工作人员将它们的输出与 ChatGPT 的输出相比较。然而,当我们进行更有针对性的自动评估时,我们发现模仿模型在模仿数据没有得到大量支持的任务上,几乎无法缩小基础语言模型到 ChatGPT 的差距。我们发现,这些性能差距可能会从人类评估者那里溜走,因为模仿模型擅长模仿 ChatGPT 的风格,但不是它的事实性。总的来说,我们得出的结论是,模型模仿是一个虚假的承诺:开放和封闭的语言模型之间存在着巨大的能力差距,而按照当前的方法,只有通过使用笨重的模仿数据或者使用更有能力的基础语言模型才能弥补这一差距。反过来,我们认为,改进开源模型的最高杠杆行动是去应对开发更好的基础语言模型的困难挑战,而不是采取模仿专有系统的捷径。

Orca:从 GPT-4 复杂解释迹象中进行逐步学习

论文地址:Orca: Progressive Learning from Complex Explanation Traces of GPT-4[11]

最近的研究关注的是通过模仿学习提高较小模型的能力,借鉴大型基础模型(LFM)生成的输出。这些模型的质量受到许多问题的影响,范围从 LFM 输出的浅层模仿信号的限制;小规模同质化训练数据;以及最重要的是缺乏严格的评估导致高估了小模型的能力,因为它们往往学习模仿 LFM 的风格,但不是推理过程。为了解决这些挑战,我们开发了 Orca(我们正在与我们的法律团队合作,根据 LLaMA 的发布政策,公开发布模型权重的差异,将在此发布[12]),一个 130 亿参数的模型,该模型学习模仿 LFM 的推理过程。Orca 从 GPT-4 的丰富信号中学习,包括解释迹象;逐步的思考过程;和其他复杂的指示,由 ChatGPT 的教师辅助指导。为了推动这种逐步学习,我们利用大规模和多样化的模仿数据进行谨慎的抽样和选择。Orca 在复杂的零射击推理基准测试中,如 Big-Bench Hard(BBH)和 AGIEval,比常规的最先进的指令调谐模型,如 Vicuna-13B,提高了 100% 以上,42%。此外,Orca 在 BBH 基准测试上与 ChatGPT 达到了平等,并在专业和学术考试如 SAT、LSAT、GRE 和 GMAT 中显示出竞争性的表现(与优化系统消息相比有 4 个百分点的差距),无论是否有 CoT,在零射击设置中都落后于 GPT-4。我们的研究表明,从逐步解释中学习,无论这些解释是由人类还是更先进的 AI 模型生成的,都是提高模型能力和技能的有前途的方向。

References

[1]

LLaMA: https://ai.facebook.com/blog/large-language-model-llama-meta-ai

[2]

Chinchilla: https://paperswithcode.com/method/chinchilla

[3]

Meta’s powerful AI language model has leaked online — what happens now?: https://www.theverge.com/2023/3/8/23629362/meta-ai-language-model-llama-leak-online-misuse

[4]

Meta's LLaMA LLM has leaked - Run Uncensored AI on your home PC!: https://www.reddit.com/r/ChatGPT/comments/11mracj/metas_llama_llm_has_leaked_run_uncensored_ai_on

[5]

Alpaca: https://crfm.stanford.edu/2023/03/13/alpaca.html

[6]

Vicuna: https://lmsys.org/blog/2023-03-30-vicuna

[7]

Koala: https://bair.berkeley.edu/blog/2023/04/03/koala

[8]

GPT4ALL: https://gpt4all.io/index.html

[9]

LLaMA: Open and Efficient Foundation Language Models: https://arxiv.org/abs/2302.13971

[10]

The False Promise of Imitating Proprietary LLMs: https://arxiv.org/abs/2305.15717

[11]

Orca: Progressive Learning from Complex Explanation Traces of GPT-4: https://arxiv.org/abs/2306.02707

[12]

在此发布: https://arxiv.org/pdf/2306.02707.pdf

您可能也对以下帖子感兴趣

MIT系初创打破Transformer霸权!液体基础模型刷新SOTA,非GPT架构首次显著超越Transformer
A𝕀²ℙarad𝕚g𝕞范式智库认知构建路径|AI²Paradigm范式V3解读暨转译:蒸馏模型和开源的LLM革命
微调工程研究系列E02S02|开源LLM的历史:更好的基础模型
微调工程研究系列E03S02|开源LLM的历史:微调与对齐
苹果一篇论文得罪大模型圈?Transformer不会推理,只是高级模式匹配器!所有LLM都判死刑

文章有问题?点此查看未经处理的缓存